# 拍拍贷贷款数据分析 – 张靖尧

本次对拍拍贷数据从2015-01-01到2017-01-30的所有信用标的10%sample样本。 由于数据集中变量众多,故此次分析数据集中的 lcis.csv 表中的10个变量。 这十三个变量分别是:借款金额、借款利率、借款期限、初始评级、借款类型、是否首标、年龄、性别、历史成功借款次数、历史成功借款金额、总代还本金、历史正常还款期数、历史逾期还款期数、标当前逾期天数。

单变量绘图选择(Univariate Plots Section)

对「性别」进行探索性分析,探索「性别」的分布情况。

对「初始评级」进行探索性分析,探索「初始评级」的分布情况。

对「借款利率」进行探索性分析,探索「借款利率」的分布情况。

对「标当前逾期天数」进行探索性分析,探索「借款利率」的分布情况。

对「借款金额」进行探索性分析,探索「借款金额」的分布情况。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    3000    4107    8516    7000  500000
## [1] 31165
  • 从「借款金额」分布来看,数据呈偏态分布,主要集中在 7000元以下。
  • 25%分位值: 3000元,中位数: 4107元,平均值: 8516元,75%分为值: 7000元。可以看出借款金额主要集中在 2000 - 7000元之间。

对「年龄」进行探索性分析,探索「年龄」的分布情况。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   18.00   25.00   28.00   29.35   32.00   65.00
  • 年龄呈偏态分布,主要集中在低年龄段。
  • 年龄分布:25%分位值:25岁,中位数:28岁,平均年龄:29.35岁,75%分位值:32岁,可以看出年龄主要集中在25岁—32岁。

对「历史成功借款次数」进行探索性分析,探索「历史成功借款次数」的分布情况。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   0.000   1.000   2.000   2.584   4.000 487.000    1203

  • 历史成功借款次数最少为1次,最多为83次,并且比较分布集中在某几个值上,这可能和借款规则有什么关系。
  • 借款次数数量最多的是1次,其次是2次,然后是25次。

对「历史成功借款金额」进行探索性分析,探索「历史成功借款金额」的分布情况

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##       0    1000    6500   15131   13692 3856476    1203

  • 历史成功借款金额25%分位值:3元,中位数:7180元,平均值:7878元,75%分位值:14717元,最大值:19185元。
  • 从历史成功借款金额分布来看,主要集中在 10000元以后。并且呈明显的集中状况。

对「总待还本金」进行探索性分析,探索「总待还本金」的分布情况

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       0       0    2883    4500    5891 1697706

  • 总待还本金25%分位值:0元,中位数:2883元,平均值:4500元,75%分位值:5891元,最大值:1697706元
  • 总待还本金呈现偏态分布,主要分布在0—6000元范围内。由于最大值比较大,故平均值被拉高了。

对「历史逾期还款期数」进行探索性分析,探索「历史逾期还款期数」的分布情况

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##      0.0      0.0      0.0     18.4      0.0 524034.0

  • 历史逾期还款期数呈明显的偏态分布,主要逾期数集中在20期以下。而在20期以上的应该是坏账,所以一直在逾期。

单变量分析

你的数据集结构是什么?

数据集中共有 292,539条客户投资成功的标。 LC(贷款特征)部分共有21个字段,包括一个主键(listingid)、7个标的特征和13个成交当时的借款人信息,全部为成交当时可以获得的信息。 IS(投资状况)部分有15个字段,包括截至recorddate当天标的还款状态,针对这位客户的已还和待还金额,最近的还款情况和下一期还款计划。

你的数据集内感兴趣的主要特性有哪些?

借款金额、年龄、性别、标当前逾期天数、标当前状态

你认为数据集内哪些其他特征可以帮助你探索兴趣特点?

借款期限、借款类型、是否首标、历史成功借款次数、历史正常还款期数、历史逾期还款期数

根据数据集内已有变量,你是否创建了任何新变量?

没有

在已经探究的特性中,是否存在任何异常分布?你是否对数据进行一些操作,如清洁、调整或改变数据的形式?如果是,你为什么会这样做?

「借款金额」呈明显的集中分布,1000元倍数的值的数量众多,75%分位值为7000元,超出7000元的借款人仅为少数,但大额借款的金额最高达到50万,虽然数量少,但是拉高了平均值。低于7000元的借款人数为217324,高于7000元的借款人总数为31165。所以将低于7000和高于7000分开进行分析。 「历史成功借款次数」

双变量绘图选择(Bivariate Plots Section)

对「年龄~性别」进行探索分析。

## lcis$性别: 男
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   18.00   25.00   28.00   29.53   33.00   56.00 
## -------------------------------------------------------- 
## lcis$性别: 女
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   18.00   25.00   28.00   29.02   32.00   65.00
## lcis$性别: 男
## [1] 190366
## -------------------------------------------------------- 
## lcis$性别: 女
## [1] 102173
  • 从上图可以看出男女的分布基本一致,都集中在25-32岁之间。
  • 但男性用户人数基本上是女性用户人数的两倍,

对「借款金额~年龄」进行探索性分析

  • 上图可以看出,借款金额和年龄之间的关系并不大。并且无论年龄大小,借款金额多集中在2000-5000元附近。

对「借款金额~性别」进行探索性分析

## lcis$性别: 男
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    3000    4000    9386    7000  500000 
## -------------------------------------------------------- 
## lcis$性别: 女
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    3000    4275    6896    7000  500000

  • 上图可以看出,男性和女性分布差别不大,中位数也基本一致。
  • 男性均值比女性高2490元。从第一张图可以看出,男性的大额借款数量比女性多,这导致了男性借款金额平均值上升,说明男性更容易选择大额借款。
  • 女性的中间50%的借款金额范围稍微更广一点。

对「借款金额~借款利率」进行探索性分析

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    7.00   16.00   18.00   17.78   20.00   24.00
## 
##     7     8  8.01  8.09   8.1  8.18  8.39   8.4   8.5  8.51  8.53  8.61 
##    10    10     5    10     5     5     5     5   166     5     5     5 
##   8.7     9  9.01  9.02  9.03   9.1  9.11  9.22  9.25  9.28   9.3  9.31 
##     5   698    31     5    20    10     5     5   101     5    20    10 
##  9.32  9.35  9.38  9.39   9.4  9.45   9.5  9.51  9.53  9.58   9.6  9.61 
##     5    10    10     5     5     5   527    25     5     5    15     5 
##  9.68   9.7  9.71  9.75  9.79  9.88  9.89   9.9    10 10.01 10.02  10.1 
##     5    10     5     5     5    10     5     5  2413     5     5     5 
##  10.5    11  11.5    12    13    14  14.4 14.57  14.6 14.96    15  15.1 
##  6278  6163  7885 22290   744  3335    40    10    15     5  1351    51 
## 15.29    16    17    18 18.01  18.3    19    20  20.5    21    22    23 
##    10 28410   113 97519     5     6   162 66372     7   357 45409   110 
##    24 
##  1641

  • 借款利率在14、16、18、20、22处的借款金额较多,呈明显的集中分布。
  • 借款利率和借款金额之间没有明显的关系。

对「初始评级~标当前状态」进行探索性分析

  • 上图可见,数据呈一定的正态分布,其中AAA级的逾期数量和逾期比例都最少,最多的是B级和C级。说明初始评级和标当前状态有一定的关联。

对「初始评级~标当前逾期天数」进行探索性分析

  • 由上图可以看出,评级越低逾期的天数越多,主要集中在B和C评分,但大多数集中在500天一下。

对「初始评级~借款金额」进行探索性分析

  • 可以看出AAA评级借款中位数最低,AA、A、B和C评级的中位数差距不大,D评级的中位数最高。
  • 这样的分布有可能是因为低评分用户没有那么在意初始评级,借款容易超出自己还款范围,导致逾期,从而无法提高评分,形成不良循环。

对「初始评级~历史成功借款期数」进行探索性分析

  • 上图可以看出,历史成功借款次数中 AAA 评级的次数远高于另外七个评分。可能是 AAA 评分的逾期天数较低,所以用户更愿意借款给 AAA 级用户。

对「借款金额~历史成功借款次数」进行探索性分析

  • 根据以上图可以看出借款金额和历史成功借款金额之间看不出有什么关联。

  • 根据以上图可以看出,除了在 A 评级中女性略高于男性,其他的评级男性的人数都要比女性的人数多。

双变量分析

探讨你在这部分探究中观察到的一些关系。这些感兴趣的特性与数据集内其他特性有什么区别?

  • 用户男性数量多于女性。但女性平均借款金额略高于男性。
  • 初始评级对标当前状态、标当前逾期天数、历史成功借款次数等有很大影响
  • 初始评级越低的用户借款金额就越高,逾期率和逾期天数也更高。
  • 初始评级越高的人虽然借款金额较低,但历史借款次数较高。
  • 这些特性主要是对借款人情况的一些描述,可以通过这些关系来判断借款人逾期的可能性。

你是否观察到主要特性与其他特性之间的有趣关系?

初始评级高,逾期中占当前评级的比例越低,逾期天数也越少,成功借款次数越多。说明评级在借贷中是非常重要的属性,而避免投资无法按期收回的最好办法就是投资评级高的标。

你发现最强的关系是什么?

初始评级和标当前状态为“逾期中”的关系非常强。

多变量绘图选择

对「借款金额」「标当前逾期天数」「初始评级」进行探索性分析

  • 初始评级越高,借款金额越低,逾期天数也更低。
  • 借款金额越高的逾期天数也越多。
  • 逾期主要发生在2000-5000元之间,并且以 B、C、D评级为主。

  • AAA评级中逾期的全部为男性,而且是大额借款导致的逾期,可见即使信用评级很高,但借款金额太大也容易导致逾期。
  • 初始评级越低,借款金额越高。和之前结论一致。

  • 逾期中女性的借款金额略高于男性。说明女性消费能力较强,愿意借更多的钱,但容易导致逾期。

  • 逾期中的男性逾期天数略高于女性,说明男性还款意愿较低,比较容易拖更长的时间还款。

多变量分析

探讨你在这部分探究中观察到的一些关系。通过观察感兴趣的特性,是否存在相互促进的特性?

在探究这部分中,我发现逾期多发生在年轻人如年龄在30岁以下,借款金额低于5000的人群当中,其中男性比例略高于女性。 ### 这些特性之间是否存在有趣或惊人的联系呢? 逾期中的用户初始评级在 B 级的借款金额竟然多数出现在2500元以下,并且大部分逾期天数在200天以下,而 D 级借款金额就上升到5000附近,最高逾期天数接近600天。 ### 选项:你是否创建过数据集的任何模型?讨论你模型的优缺点。 没有创建过任何模型。

定稿图与总结

绘图一

描述一 大多数借款人的年龄在20-35岁之间,平均年龄为29岁。

绘图二

描述二 初始评级越低,逾期人数占当前评级总人数的比例就越高,也就是说评级越低,越容易逾期。

绘图三

  • 男性发生逾期后往往会逾期更长的时间,要略高于女性,所以借款给女性客户显然会更加保险。

反思

1、在分析的初期,对数据理解有一定的困难,不知道数据之间的关联性。所以第一时间去其官网熟悉其业务,了解其业务逻辑,这才对数据的每个字段有了一定的了解。并且认识到原来有些借款其实是C2C的,并不是B2C。这对后续分析非常重要。

2、在熟悉了业务逻辑后,我慢慢展开了对数据的初步探索阶段,这一阶段可以说是在漫游,因为完全不清楚该向那个方向进行分析,在看到「标当前状态」这个字段后,我才意识到,逾期应该是对这类金融公司需要着重关注的点,从而确定了我的分析方向。

3、在对感兴趣的单变量进行分析后,便对双变量开始探索,主要分析集中在了「逾期中」用户的具有什么样的用户画像上,以及投资什么样的借款群体能够尽可能的避免逾期风险。

4、遇到的挫折。 在分析过程中很多想法想要通过 R 实现感到很困难,因为对语法不熟悉,导致进度经常受阻。甚至是有些想法太难以实现,从而改变自己的想法。而且掌握的图形类型太少,导致探索性分析的方式不够多样,很可能有些有趣的结论没能被发现。

5、未来如何进一步丰富内容和提高报告质量? 未来希望通过对 R 语言的进一步掌握,能够使自己的各种想法都能够快速编写出来,这对我进一步的思考分析方法有很大的帮助。另外希望能掌握更多类型的图形,以便于更加直观、美观的展示自己的分析结果。

6、无法进行深入的相关性验证,所以得出的结论都存在一定的偶然性。